智能论文笔记

Positive-Unlabeled Learning with Uncertainty-aware Pseudo-label Selection

Emilio Dorigatti , Jann Goschenhofer , Benjamin Schubert , Mina Rezaei , Bernd Bischl

分类： (统计)机器学习 | 机器学习

2022-01-31

积极的未标记（PU）学习旨在仅从积极和未标记的培训数据中学习二进制分类器。最近的方法通过发展无偏的损失功能通过对成本敏感的学习解决了这一问题，后来通过迭代伪标记解决方案改善了其性能。但是，这样的两步程序容易受到错误估计的伪标签的影响，因为在以后的错误预测训练新模型时，在以后的迭代中传播了错误。为了防止这种确认偏见，我们提出PUUPL是PU学习的新型损失不足的训练程序，该程序将认知不确定性纳入伪标签选择中。通过使用基于低确定性预测的神经网络的合奏并分配伪标记，我们表明PUUPL提高了伪标签的可靠性，提高了我们方法的预测性能，并导致了新的最先进的结果在自我训练中进行PU学习。通过广泛的实验，我们显示了方法对不同数据集，模式和学习任务的有效性，以及改进的校准，对先前拼写错误的稳健性，偏见的正数据和不平衡数据集。

translated by 谷歌翻译

当我们使用算法提出建议时，我们通常认为这些建议是提供有用的信息，例如在向法官或医生提供风险评估时。但是，当决策者获得建议时，他们不仅可以对信息做出反应。决策者可以将建议视为默认行动，使他们偏离偏差，例如，当法官不愿推翻对被告的高风险评估或医生担心偏离建议程序的后果时。在本文中，我们考虑建议不仅通过转移信念，而且通过改变偏好来影响选择的效果和设计。我们激励我们的模型从制度因素（例如避免审核的愿望）以及行为科学中建立的模型中的渴望，这些模型相对于参考点，这些模型预测了相对于参考点的损失厌恶，这是由算法设定的。我们表明，与建议有关的偏好造成了效率低下的效率，而决策者对建议过于响应，这改变了算法的最佳设计，以提供较不保守的建议。作为一种潜在的补救措施，我们讨论了一种算法，该算法从战略上扣留建议，并展示如何提高最终决策的质量。

translated by 谷歌翻译

我们研究了具有预处理结果数据的实验研究的最佳设计。估计平均处理效果是治疗和控制单元的加权平均结果之间的差异。许多常用的方法符合该配方，包括差分估计器和各种合成控制技术。我们提出了几种方法，用于结合重量选择一组处理的单位。观察问题的NP硬度，我们介绍了混合整数编程配方，可选择处理和控制集和单位权重。我们证明，这些提出的方法导致定性不同的实验单元进行治疗。我们根据美国劳动统计局的公开数据使用模拟，这些数据在与随机试验等简单和常用的替代品相比时，表现出平均平方误差和统计功率的改进。

translated by 谷歌翻译